科目名 □自然言語処理
担当教員   冨浦 洋一     
対象学年   4年   クラス   [493]  
講義室   12105教室   開講学期   前期  
曜日・時限   水1   単位区分   選択  
授業形態     単位数   2  
準備事項    
備考    

講義概要/Class Outline

社会の高度情報化に伴い,大量の電子化文書があふれている.これらから必要な情報を取得するための技術として,自然言語処理システムは益々重要になってきている.本科目では,自然言語処理の要素技術,機械翻訳,情報抽出,文書分類などを題材として,自然言語処理における「言語が持つ規則性の表現法」,「解析/変換の手法」,「曖昧さ解消法」,「情報の抽出手法」を理解する.  

講義計画 /Class Structure

内容
1 自然言語処理概論
自然言語処理技術の発達の歴史を辿り,形態素解析,構文解析,意味解析,文脈解析といった各解析の位置づけを行う.
2 形態素解析
- 規則性の表現
- 演習1:規則を満たす解を求めてみる
- 形態素解析と仮名漢字変換の関係
- 曖昧さとその絞込み法
- 演習2:規則を満たし,優先される解を求めてみる
3 小テスト,文脈自由文法
- 小テスト1(前回演習2と同形式)
- 文脈自由文法と導出,構文木(導出木)
- 演習3:導出,構文木
4 文脈自由文法による構文解析
- 演習4:日本語の小規模文法を満たす構文木をすべて求めてみる
- 曖昧さの絞込みの古典的手法(ヒューリスティック,選択制約)とその問題点
5 確率文脈自由文法
- 確率文脈自由文法と構文木の生起確率
- 確率文脈自由文法による統語的曖昧さの絞込み
- 演習5:確率文脈自由文法による演習4の問題の統語的曖昧さの絞込み
- 確率文脈自由文法のパラメタ推定
6 小テスト,統計的機械翻訳
- 小テスト2(演習5と同形式)
- 統計的機械翻訳概説
7 意味解析,文脈解析
- 単語の語義の選択,明示されない意味関係の推定(意味解析)
- 文脈に依存した意味,意図の推定,照応解析(文脈解析)
- 演習6:Centering 理論に沿った照応解析
8 対話システム
- 話題に依存しない対話システム(ex. ELIZA)
- 話題に依存した対話システム
- 大量の文書を利用した対話システム
9 文書のキーワード抽出(1)
- tf-idf による手法
- その他の手法概説
- プログラミング言語 awk(または perl)入門
10 文書のキーワード抽出(2)
- 演習7:文書のキーワード抽出プログラムの作成
11 文書要約
- 文の不要語の削除による要約
- 重要文抽出(非重要文の削除)による要約
- 演習8:重要文抽出による要約プログラムの作成
12 その他の情報抽出
- 固有名抽出
- 評価表現の抽出
- 意見・動向情報の抽出
13 文書分類
- 文書分類の一般的手法
- 経験的な尤度を利用した文書分類手法
- 統計的な尤度を利用した文書分類手法
- 簡易版 Spam フィルター
14 まとめ
 

学習・教育目標/Class Target 1.自然言語処理技術の概要理解
2.言語が持つ規則性の表現法の理解     
3.解析/変換手法の理解
4.曖昧さ解消手法の理解
5.情報抽出手法の理解
 
評価基準/GradingCriteria 秀 : 上記の項目について総合的に90%以上達成  優 : 上記の項目について総合的に80〜89%達成  良 : 上記の項目について総合的に70〜79%達成  可 : 上記の項目について総合的に60〜69%達成  
評価方法/GradingMethod 定期試験40%,小テスト20%,演習20%,レポート40% の割合で総合的に評価する.  
受講上の注意/Class Rules  
受講制限/Prerequisit  
関連する科目/Related Class  
教科書/Text
著者名  
著書名  
出版社名  
ISBNコード  
指定図書/Assigned Books
著者名  
著書名  
出版社名  
ISBNコード  
参考文献/Bibliography
著者名  
著書名  
>出版社名  
ISBNコード